We study the problem of efficient generative inference for Transformer models, in one of its most challenging settings: large deep models, with tight latency targets and long sequence lengths. Better understanding of the engineering tradeoffs for inference for large Transformer-based models is important as use cases of these models are growing rapidly throughout application areas. We develop a simple analytical model for inference efficiency to select the best multi-dimensional partitioning techniques optimized for TPU v4 slices based on the application requirements. We combine these with a suite of low-level optimizations to achieve a new Pareto frontier on the latency and model FLOPS utilization (MFU) tradeoffs on 500B+ parameter models that outperforms the FasterTransformer suite of benchmarks. We further show that with appropriate partitioning, the lower memory requirements of multiquery attention (i.e. multiple query heads share single key/value head) enables scaling up to 32x larger context lengths. Finally, we achieve a low-batch-size latency of 29ms per token during generation (using int8 weight quantization) and a 76% MFU during large-batch-size processing of input tokens, while supporting a long 2048-token context length on the PaLM 540B parameter model.
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译
Content ratings can enable audiences to determine the suitability of various media products. With the recent advent of fan fiction, the critical issue of fan fiction content ratings has emerged. Whether fan fiction content ratings are done voluntarily or required by regulation, there is the need to automate the content rating classification. The problem is to take fan fiction text and determine the appropriate content rating. Methods for other domains, such as online books, have been attempted though none have been applied to fan fiction. We propose natural language processing techniques, including traditional and deep learning methods, to automatically determine the content rating. We show that these methods produce poor accuracy results for multi-classification. We then demonstrate that treating the problem as a binary classification problem produces better accuracy. Finally, we believe and provide some evidence that the current approach of self-annotating has led to incorrect labels limiting classification results.
translated by 谷歌翻译
机器学习(ML)模型的开发不仅仅是软件开发的特殊情况(SD):ML模型即使没有以看似无法控制的方式直接人类互动,也可以获取属性并满足要求。但是,可以形式上描述基础过程。我们为ML定义了一个全面的SD流程模型,该模型涵盖了文献中描述的大多数任务和文物。除了生产必要的工件外,我们还专注于以规格的形式生成和验证拟合描述。我们强调即使在初步训练和测试后,即使在生命周期中进一步发展ML模型的重要性。因此,我们提供了各种交互点,具有标准SD过程,其中ML通常是封装的任务。此外,我们的SD过程模型允许将ML作为(元)优化问题提出。如果严格自动化,则可以用来实现自适应自主系统。最后,我们的SD流程模型具有时间的描述,可以推理ML开发过程中的进度。这可能会导致ML领域内形式方法的进一步应用。
translated by 谷歌翻译
本文讨论了创建和分析用于数据挖掘和文本分析研究的新数据集,这为利兹大学国家方言语料库的联合研究项目做出了贡献。该报告调查了机器学习分类器,以对各个法语国家的法语方言文本进行分类。遵循CRISP-DM方法的步骤,本报告探讨了数据收集过程,数据质量问题和数据转换以进行文本分析。最后,在应用了合适的数据挖掘技术之后,讨论了评估方法,最佳总体特征以及分类器和结论。
translated by 谷歌翻译
环境感知是自动驾驶汽车领域中的一个重要方面,它提供了有关驾驶领域的重要信息,包括但不限于确定明确的驾驶区域和周围的障碍。语义分割是一种用于自动驾驶汽车的广泛使用的感知方法,它将图像的每个像素与预定义的类相关联。在这种情况下,评估了有关准确性和效率的几个分割模型。生成数据集的实验结果确认,更快的分割模型足够快,可以实时在自动驾驶汽车中的低力计算(嵌入式)设备上使用。还引入了一种简单的方法来为模型生成合成训练数据。此外,比较了第一人称视角的准确性和鸟类的视角。对于第一人称视角的$ 320 \ times 256 $输入,更宽松的是$ 65.44 \,\%$均值均值的交叉点(miou),以及$ 320 \ times 256 $的输入,从鸟类的眼睛的角度来看,forppective fore fore fore fore fore fore foreveves foreveves fore fore fore fore for。 \,\%$ miou。这两种观点都在Nvidia Jetson Agx Xavier上达到每秒247.11美元的框架率。最后,测量并比较目标硬件的算术速率和相对于算术16位浮点(FP16)和32位浮点(FP32)的精度。
translated by 谷歌翻译